李彦宏戳破大模型“跑分”假象：榜单不代表所有实力未来模型的差距会变大

行情中心

指数期指期权个股板块排行新股基金港股美股期货外汇黄金自选股自选基金

数据中心

资金流向主力排名板块资金个股研报新股申购转债申购北交所申购 AH股比价年报大全融资融券龙虎榜限售解禁 IPO审核大宗交易估值分析

首页 > 财经频道 > 正文

李彦宏戳破大模型“跑分”假象：榜单不代表所有实力未来模型的差距会变大

2024年09月11日 17:53

来源：第一财经

小中大

东方财富APP

方便，快捷

手机查看财经快讯

专业，丰富

一手掌握市场脉搏

手机上阅读文章

提示：

微信扫一扫

分享到您的

朋友圈

　　每当有新版本的大模型发布时，业界总是热衷于引用第三方榜单数据，拿自家大模型和GPT-4一起"跑个分"，声称已经在某些指标上实现了超越，以此来证明自己的大模型技术实力。

　　但在近日百度董事长李彦宏和内部员工的一场交流中，捅他破了大模型行业跑分的"窗户纸"。"每次新模型发布，都要和GPT-4o做比较，说我的得分已经跟它差不多了，甚至某些单项上得分已经超过它了，但这并不表明和最先进的模型就没有差距了。"

　　他进一步解释道，模型之间的差距是多维度的。一个维度是能力方面，不管是理解能力、生成能力、逻辑推理能力还是记忆能力等这些基本能力上的差距；另一个维度是成本方面，有些模型虽能达到同样效果，但成本高、推理速度慢，其实还是不如先进模型。

　　"还有就是对于测试集的over-fitting，每一个想证明自己能力的模型都会去打榜，打榜时他就要猜别人到底在测什么、哪些题我用什么样的技巧就能做对，所以从榜单或者测试集上看，你觉得能力已经很接近了，但到实际应用中还是有明显差距的。"李彦宏说。

　　一位大模型从业者告诉记者，李彦宏提到的测视集的over-fitting（过拟合），主要是指模型训练过程中，模型对训练数据的学习过于精细，以至于模型在训练数据上的表现非常好，但在没见过的测试数据上表现较差的现象。这通常意味着模型过于复杂，以至于它能够"记住"训练数据中的噪声和细节，但这些细节和噪声并不具有普遍性，因此，模型无法很好地推广到更多新数据上。

　　上述人士认为，打榜跑分确实存在局限性，例如由于评测数据集的公开性，模型可以有针对性地训练来提升排名，出现"刷榜"现象，但并非完全没有意义，榜单还是相对提供了一个量化的评估标准，帮助人们快速了解不同大模型的性能，促使大家通过竞争不断优化大模型的技术水平，也有一定宣传和推广的作用。

　　在李彦宏看来，"部分自媒体的炒作，再加上每个新模型发布的时候都有宣传的动力，使得大家有一种印象，认为模型之间的能力差别已经比较小了，其实真不是这样。"李彦宏说，在实际使用过程当中，百度不允许技术人员去打榜，真正衡量大模型能力，应该是在具体应用场景中，看是否能满足用户需求、产生价值增益。

　　而对于大模型行业常常提到的"领先12个月或者落后18个月"，他认为也没有那么重要。因为每个公司都处在完全竞争的市场环境中，不管做什么方向都有很多竞争对手。"如果你能永远保证领先对手12~18个月，那是天下无敌的，不要觉得12—18个月是很短的时间，哪怕你能保证永远领先竞争对手6个月，那就赢了，你的市场份额可能是70%，而对手可能仅为20%甚至10%的份额。"

　　他判断，未来大模型之间的差距可能会越来越大。因为大模型的天花板很高，现在距离理想情况还相差非常远，所以模型要不断快速迭代、更新和升级；需要能几年、十几年如一日地投入，不断满足用户需求，降本增效。

　　除了讨论大模型竞争还有没有壁垒，在交流中，李彦宏还提到外界对大模型有相当多的误解，包括开源闭源模型效率、AI Agent等话题。

　　李彦宏是闭源大模型的坚定支持者，"在大模型时代之前，大家习惯了开源意味着免费、意味着成本低。" 他解释说，比如开源的Linux，因为已经有了电脑，所以使用Linux是免费的。但这些在大模型时代不成立，大模型推理是很贵的，开源模型也不会送算力，还得自己买设备，无法实现算力的高效利用。

　　"效率上开源模型是不行的。" 他表示，" 闭源模型准确讲应该叫商业模型，是无数用户分摊研发成本、分摊推理用的机器资源和GPU，GPU的使用效率是最高的，百度文心大模型3.5、4.0的GPU使用率都达到了90%多。"

　　李彦宏分析，在教学科研等领域，开源模型是有价值的；但在商业领域，当追求的是效率、效果和最低成本时，开源模型是没有优势的。

　　关于大模型的应用演进方式，他也表达了自己的观点，首先出现的是Copilot，对人进行辅助；接下来是Agent智能体，有一定的自主性，能自主使用工具、反思、自我进化；这种自动化程度再发展，就会变成AI Worker，能独立完成各方面的工作。

　　当前，智能体已经受到越来越多的大模型公司及客户的关注，李彦宏认为，虽然有很多人看好这个发展方向，但是到今天为止，智能体还不是共识。

　　"智能体的门槛确实很低"，他说，很多人不知道怎么把大模型变成应用，而智能体是一个非常直接、高效、简单的方式，在模型之上构建智能体相当方便。

（文章来源：第一财经）

文章来源：第一财经责任编辑：3

原标题：李彦宏戳破大模型“跑分”假象：榜单不代表所有实力，未来模型的差距会变大

郑重声明：东方财富发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。